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摘要 : 


【 目的 】 为 了 准确 识别 金融 论坛 文本 的 情感 倾向 , 提出 一 种 基于 依存 句法 的 情感 分 析 方 法 。[ 方法 】 以 依 


存 句法 的 分 析 结 果 为 基础 ， 对 句子 进行 情感 主干 抽取 ; 然后 根据 依存 关系 的 不 同类 型 和 不 同 的 词性 搭配 , 定义 
情感 计算 规则 ， 以 此 进行 句子 情感 倾向 性 计算 。[ 结果 】 实 验 结果 表明 , 该 方法 的 整体 准确 率 为 84.46%; 看 涨 类 
的 平均 精确 率 和 召回 率 分 别 为 82.84% 和 87.14%, F 值 为 84.94%; 看 跌 类 的 平均 精确 率 和 召回 率 分 别 为 86.28% 和 
81.74%, 上 值 为 83.95%。[ 局 限 ] 在 情感 计算 时 未 充分 考虑 子 句 间 的 关联 关系 。[ 结论 】 使 用 依存 句法 能 有 效 提 


高 金融 论坛 文本 情感 计算 的 准确 性 。 
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金融 论坛 文本 “文本 挖掘 


1 3 引 


随 着 互联 网 的 发 展 和 普及 ， 人 们 不 再 满足 于 被 动 
地 接受 网 络 信 息 , 越 来 越 多 的 人 开始 在 互联 网 上 表达 
自己 的 观点 和 情绪 。 在 这 种 背景 下 , 文本 情感 分 析 技 
术 应 运 而 生 。 情 感 分 析 又 称 观 点 挖掘 ， 属 于 自然 语言 
处 理 范畴 ， 旨 在 自动 识别 文本 中 人 们 对 产品 、 服 务 、 
组 织 、 事 件 等 的 评价 、 态 度 和 情绪 路 。 该 技术 无 疑 对 
了 解 大 众 情绪 、 把 握 和 与 情 发 展 趋势 、 改 善 产 品质 量 、 
提高 服务 水 平等 都 具有 非常 巨大 的 潜在 应 用 价值 。 而 
在 金融 领域 , 行为 金融 理论 已 表明 , 投资 者 的 情绪 是 
金融 市 场 中 的 一 个 重要 变量 。 以 网 络 论坛 、 新 闻 、 微 
博 等 为 数据 来 源 , 应 用 情感 分 析 技术 挖掘 市 场 中 投资 
者 的 情绪 , 并 以 此 作为 投资 决策 依据 的 设想 , 已 引发 
众多 金融 分 析 人 士 的 关注 。 然 而 , 金融 论坛 语 料 具 
有 短文 本 的 相关 特点 ， 其 特征 稀 琉 、 噪 声 大 等 特性 给 
传统 的 情感 分 析 方 法 带 来 了 极 大 的 挑战 1。 为 了 准确 
识别 金融 论坛 文本 的 情感 倾向 ,本 研究 以 依存 句法 分 


了 中 
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析 技 术 为 基础 ,挖掘 句子 中 各 词语 间 的 语义 修饰 关系 ， 
改善 金融 论坛 语 料 情感 分 析 的 性 能 。 


2 相关 研究 


目前 针对 金融 论坛 语 料 进行 情感 分 析 的 技术 主要 
有 两 类 : 基于 情感 词典 的 方法 和 基于 机 带 学 习 的 方 
法 。 其 中 , 基于 情感 词典 的 方法 最 为 简单 ， 它 主要 依赖 
于 词 袋 模型 , 将 文本 看 成 是 一 个 无 序 的 词汇 集合 , 根 
据 情 感 词典 识别 文本 中 的 情感 词 , 通过 累加 各 词 的 情 
感 分 值 ， 获 得 最 终 的 文本 情感 倾向 。 如 段 江 娇 等 "将 情 
绪 分 为 5 个 档次 , 根据 帖子 内 容 中 的 词汇 与 预先 设 定 
好 的 各 档次 关键 词 词 库 的 匹配 结果 确定 整个 帖子 的 情 
绪 。 文 献 [8-10] 探 讨 了 投资 者 情绪 对 股票 市 场 的 影响 ， 
其 采用 的 情感 分 析 工 具 是 武汉 大 学 开发 的 ROST 系统 ， 
该 系统 基于 情感 词典 、 程 度 词典 等 , 获取 文本 中 的 情 
感 词 和 程度 词 , 进而 判断 单 句 的 情感 倾向 。 基 于 机 融 
学 习 的 方法 是 目前 情感 分 析 领 域 的 主流 ,在 对 金融 论 
坛 语 料 的 处 理 中 更 是 常见 。 如 文献 [11-12] 利 用 支持 问 
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量 机 的 分 类 方法 ， 对 东方 财富 股吧 、 新 浪 股吧 、 和 讯 
股吧 等 网 络 熏 情 信息 进行 情感 分 类 , 构建 情绪 指数 并 
进行 股票 价格 预测 。 文 献 [13-1 和 1 使 用 目前 应 用 较为 广 
泛 的 开源 软件 Weka, 并 对 比 了 多 种 算法 ,最 终 选择 表 
现 最 好 的 KNN 算法 进行 情感 分 类 , 同时 构建 情绪 指 
数 , 研究 其 对 股票 市 场 的 影响 。 

这 两 类 方法 中 , 情感 词典 方法 的 主要 优势 是 思想 
和 算法 实现 比较 简单 ， 它 基于 一 个 定义 良好 的 情感 词 
典 ， 对 各 个 词 的 情感 分 值 进行 简单 累加 。 而 机 器 学 习 
方法 无 需 情 感 词典 ， 它 能 从 大 量 语 料 中 自动 获取 信息 
以 构建 情感 计算 模型 ,并 在 实际 中 有 不 错 的 表现 。 然 
而 机 器 学 习 方 法 需要 事先 提供 一 个 充分 的 、 经 过 标注 
的 语料库 作为 训练 数据 。 必 须 指 出 的 是 ， 这 两 类 方法 
目前 均 是 以 文本 中 的 词语 统计 为 基础 , 未 对 文本 中 深 
层 的 句法 结构 和 语义 关系 进行 分 析 和 利用 。 
事实 上 , 中文 是 一 门 非常 复杂 的 语言 ,同样 的 词 
语 在 不 同 的 句法 结构 下 会 产生 不 同 的 语义 关系 , 进而 
形成 连 然 不 同 的 情感 色彩 。 因 此 ， 越 来 越 多 的 学 者 开 
始 使 用 句法 分 析 来 提高 文本 情感 分 析 的 准确 性 。 如 夏 
梦 南 等 中 在 进行 微 博 的 情感 分 析 时 , 利用 句法 分 析 和 
CRFs 抽取 候选 评价 对 象 ， 以 此 为 基础 使 用 SVM 方法 
对 微 博 进行 情感 分 类 。 张 庆 庆 等 "通过 依存 句法 解析 ， 
构造 了 由 支配 词 、 从 属 词 、 从 属 关系 组 成 的 三 元 组 依 
存 句 法 关系 特征 , 并 使 用 支持 向 量 机 和 深度 信念 网 络 
的 方式 对 酒店 评论 语 料 进行 情感 分 类 。Nakagawa 等 
将 英语 和 日 语 的 依存 句法 树 作为 CRFs 模型 的 特征 输 
入, 对 文本 进行 情感 分 类 , 肖 红 等 1 通过 句法 分 析 ， 获 
取 词 语 在 句子 中 扮演 的 不 同 角 色 ( 主 、 谓 、 宾 、 定 、 状 、 
补 )， 对 不 同 的 角色 给 予 不 同 的 权 值 ， 以 此 计算 句子 的 
情感 指数 。 上 述 方法 从 不 同 角度 对 语 料 中 的 句法 信息 
加 以 应 用 , 提升 了 情感 分 析 的 性 能 ; 然而 却 很 少 考虑 
到 词语 之 间 的 修饰 关系 , 尤其 是 修饰 关系 和 词性 的 搭 
配对 句子 情感 带 来 的 影响 。 

本 文 借助 依存 句法 分 析 技 术 , 通过 获取 句子 的 句法 
结构 和 词语 间 的 修饰 关系 进行 情感 传递 , 创新 地 将 主 谓 
宾 关 系 和 句子 核心 作为 情感 主干 , 并 基于 对 大 量 语 料 的 
统计 和 观察 分 析 , 提出 了 若干 情感 计算 规则 , 最 终 构 建 
了 情感 计算 模型 。 实 验 结果 表明 , 该 模型 与 传统 的 机 咒 
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学 习 方 法 相 比 , 在 准确 率 和 召回 率 上 均 有 明显 提升 。 
3 ”融合 句法 信息 的 情感 计算 


3.1 词典 构建 

根据 情感 分 析 的 需要 ,构建 了 三 个 词典 : 情感 词 
典 、 否 定 词 词典 、 程 度 词 词典 。 由 于 论坛 语 料 的 随意 性 
较 大 以 及 金融 领域 情感 分 析 的 特殊 性 , 现 有 的 中 文 情 
感 词典 如 HowNet 和 NTUSD 难以 满足 金融 情感 分 析 的 
需要 。 为 此 , 利用 SO-PMI0? 方 法 构建 领域 情感 词典 。 
SO-PMI 的 思想 是 通过 人 工 选取 一 组 正 向 情感 词 
(pLists) 和 一 组 负 疝 情感 词 nLists) 作 为 基准 词 , 根据 待 
判定 词语 (word) 与 pLists 和 nLists 之 间 的 点 间 互 信息 差 
值 , 判定 词语 的 情感 倾向 ,以 N 表示 语料库 的 文档 总 数 ， 
df(x&y) 表 示 词 x 和 y 在 语料库 中 共 现 的 文档 数 , df(z) 表 
示 语 料 库 中 包含 词 z 的 文档 数 , 计算 公式 如 下 : 
Nxdf(word &p) 
df(word) x df (p) 


Nxdf(word &n) 
df(word)x df(n) 


SO-PMI(word)= >》 log, 
pepLists 


> log; 
nenLists 


当 某 个 词语 的 SO-PMI 值 大 于 0 时 , 将 其 归 为 正 
向 情感 词 , 小 于 0 则 归 为 负 向 。 通 过 对 使 用 SO-PMI 
算法 得 到 的 情感 词典 进行 人 工 筛选 和 调整 ， 得 到 正 向 
情感 词 1 404 个 , 负 向 情感 词 926 个 。 程 度 词 词典 下 载 
自 数据 堂 ” 共 61 个 。 和 否定 词 词典 通过 人 工 添加 得 到 ， 
共 21 个 。 
3.2 ”依存 句法 

依存 句法 分 析 是 自然 语言 处 理 中 的 一 项 重要 技 
术 , 其 任务 是 将 输入 的 文本 进行 自动 分 析 , 得 到 文本 
的 句法 结构 中 。 通 过 依存 句法 分 析 ， 可 以 了 解 句子 中 
各 词语 之 间 的 修饰 关系 ,这 种 修饰 关系 可 以 非常 方便 
地 应 用 于 句子 情感 倾向 性 分 析 。 目 前 依存 句法 分 析 工 
具 主 要 有 哈尔滨 工业 大 学 的 LTP 语言 云 平 台 己 )、 复 旦 
大 学 NLP 依存 分 析 和 Stanford 句法 分 析 器 。 其中, LTP 
平台 是 国内 较为 成 熟 的 中 文 自然 语言 处 理 平 台 , 它 提 
供 了 一 套 高 效 、 准 确 、 开 放 的 文本 处 理 模 块 ， 并 在 
SANCL 2012 互联 网 数据 依存 句法 分 析 评测 中 取得 第 
二 名 的 成 绩 。 从 开放 性 和 准确 性 考虑 , 本 文选 用 LTP 
平台 实现 依存 句法 分 析 。LTP 中 依存 关系 种 类 共有 14 
种 ， 如 表 1 所 示 。 
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表 1 LTP 依存 句法 标注 关系 


关系 类 型 标记 关系 类 型 标记 
主 谓 关 系 SBV 动 补 关系 CMP 
动 宾 关 系 VOB 并 列 关系 COO 
间 宾 关系 IOB 介 宾 关系 POB 
前 置 宾语 FOB 左 附加 关系 LAD 
兼 语 DBL 右 附 加 关系 RAD 
定 中 关系 ATT 独立 结构 IS 
状 中 关系 ADV 核心 关系 HED 


图 1 给 出 了 一 个 LTP 依存 句法 分 析 结 果实 例 。 每 
一 个 依存 关系 由 核心 词 和 修饰 词组 成 , 在 LTP 分 析 结 
果 中 ,核心 词 由 一 条 依存 弧 指 向 修饰 词 , 依存 弧 上 注 
明了 具体 的 依存 关系 种 类 1。 
HED 
A ~ 


SBV 
Root ”中铁 的 ”上涨 


需要 新 的 ”炒作 题材 
可 u V V a u V n 


图 1 依存 句法 分 析 结 果实 例 


3.3 ”情感 主干 抽取 与 情感 传递 

从 汉语 语法 的 角度 看 ,句子 中 的 主 谓 宾 关系 作为 
句子 主干 , 基本 表达 了 叙述 者 想 表 达 的 意思 。 以 “不 论 
最 后 如 何 发 展 , 这 对 于 大 宗 商 品 出 口 国 显然 是 坏 消 
息 " 为 例 。 不 考虑 叙述 者 的 针对 对 象 , 单纯 只 关心 叙述 
者 对 发 生 事件 的 看 法 和 态度 ， 主 谓 宾 关系 “这 是 坏 消 
息 ” 能 基本 表达 出 叙述 者 的 观点 。 然 而 ,由 于 论坛 短文 
本 以 及 用 语 不 规范 的 特性 , 一些 句 子 不 存在 主 谓 宾 关 
系 。 此 时 , 根据 LTP 的 分 析 结 果 , HED 关系 是 一 很 好 
的 选择 。 根 据 LTP 的 输出 , 不 管 句 子 多 么 简略 和 不 规 
范 ， 都 存在 一 个 HED( 即 句子 核心 ) 关 系 。HED 关系 描 
述 了 整个 句子 的 核心 , 概括 了 句子 的 中 心思 想 , 是 了 
解 叙 述 者 态度 的 主要 成 分 。 基 于 上 述 考 虑 ,本 文 提出 
如 下 情感 主干 抽取 策略 ， 即 以 句子 的 主 谓 宾 关系 为 主 
干 , 若 该 句 没 有 主 谓 宾 , 则 以 句子 核心 作为 情感 主干 。 

在 获得 情感 主干 之 后 ,对 每 个 主干 词 分 别 进一步 
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可 先 将 “上 涨 ”的 情感 值 传递 给 “ 门 ”， 即 计算 组 合 “上 涨 
+ 门 ”的 情感 值 。 此 时 ,“ 门 "具备 了 情感 值 , 再 看 “ 门 打 
开 " 时 , 它 已 带 有 情感 。 需 注意 的 是 ,并 不 是 所 有 依存 关 
系 都 能 传递 情感 。 笔 者 参照 万 常 选 等 3 的 研究 ,只 考虑 
6 种 依存 关系 之 间 的 情感 传递 , 如 表 2 所 示 : 

表 2 影响 文本 情感 倾向 性 的 依存 关系 


关系 类 型 标记 
主 谓 关系 SBV 
动 宾 关系 VOB 
动 补 关 系 CMP 
并 列 关系 COO 
定 中 关系 ATT 
状 中 关系 ADV 


3.4 情感 计算 规则 

事实 上 , 在 不 同 的 依存 关系 以 及 不 同 的 词性 组 合 
中 , 修饰 词 对 被 修饰 的 核心 词 (这 里 即 为 主干 词 ) 的 情 
感 影 响 是 不 相同 的 , 也 即 存在 情感 传递 差异 。 因此, 需 
要 结合 依存 关系 的 词性 组 合 设 定 具 体 的 情感 计算 规 
则 。 现 有 的 研究 大 多 单纯 地 从 语言 组 合 的 角度 分 析 依 
存 关系 的 词性 组 合 。 然 而 论坛 语 料 存在 叙述 随意 、 口 
语 化 严重 的 特征 , 单纯 地 从 语言 组 合 的 角度 难以 概括 
依存 关系 的 所 有 词性 组 合 。 为 此 , 通过 对 大 规模 金融 
论坛 语 料 的 分 析 , 笔者 统计 了 可 能 影响 文本 情感 倾向 
性 的 6 种 依存 关系 中 出 现 的 一 些 词 性 组 合 。 表 3 列举 
了 各 种 依存 关系 中 词性 组 合 频 度 最 高 的 前 6 种 。 其 中 ， 
词性 组 合 的 格式 为 “修饰 词 + 核 心 词 "。 可 以 看 出 ， 除 
ATT 关系 外 ,其 余 依 存 关系 的 前 6 种 高 频 词性 组 合 累 
积 频率 均 达 80% 以 上 , 而 ATT 关系 也 接近 60%。 简单 
起 见 , 仅 对 各 依存 关系 的 前 6 种 高 频 词 性 组 合 设 定 情 
感 计算 规则 , 除 此 之 外 , 一 律 以 核心 词 和 修饰 词 的 情 
感 分 值 相 加 作为 该 依存 关系 组 合 的 情感 分 值 。 

在 对 大 量 金融 论坛 语 料 观察 和 分 析 的 基础 上 , 根 
据 统计 到 的 依存 关系 词性 组 合 ， 同 时 借鉴 文献 [23] 的 
相关 研究 成 果 ， 主 要 根据 6 类 不 同 的 词语 间 依 存 关 系 
以 及 主干 结构 关系 设 定 了 8 类 情感 计算 规则 。 为 叙述 
方便 , 以 S(-) 表 示 词 语 或 分 句 的 情感 分 值 ，D(-) 表 示 程 


提取 其 修饰 词 。 通 过 情感 传递 将 修饰 词 的 情感 值 传 递 
至 该 主干 词 。 例 如 “上 涨 之 门 即将 打开 ”其 主 谓 关 系 
为 “ 门 打开 ” 本身 不 存在 情感 倾向 ,但 上涨” 和 主语 
“ 门 ” 之 间 存 在 一 条 依存 弧 ， 即 “< 上涨" 是 “ 门 ”的 修饰 词 ， 
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度 副词 的 程度 值 , P(-) 表 示 词 语 的 情感 极 性 , Score 表示 
根据 规则 计算 出 的 得 分 。 男 外 ， 记 修饰 词 为 mw, 核心 
词 为 cw, 程度 副词 为 dd, 否定 副词 为 nd， 其 他 词性 符 
号 见 表 3。 


斑 上 ,~vV,、 人生 甘 日 工 | 
ChinaXiv 合 作 期 和 


总 第 269 期 2016 年 第 4 期 


表 3 依存 关系 词性 组 合 


依存 关系 词性 组 合 说 明 词性 组 合 所 占 比 例 ”依存 关系 ”词性 组 合 说 明 词性 组 合 所 占 比例 
dv 副词 + 动词 nv 名 词 + 动 词 
Vy 动词 + 动词 TV 代词 + 动词 
nt V 时 间 名 词 + 动 词 Vy 动词 + 动词 
ADV es 80.99% SBV - 86.56% 
py 介词 + 动词 nhyvy 人 名 + 动词 
av 形容 词 + 动词 na 名 词 + 形 容 词 
da 副词 + 形容 词 ns V 地 理 名 称 + 动 词 
nn 名 词 + 名 词 ny 名 词 + 动 词 
vn 动词 + 名 词 Vv 动词 + 动词 
an 形容 词 + 名 词 avV 形容 词 + 动 词 
ATT 加 局 57.33% VOB 91.34% 
rn 代词 + 名 语 TV 发 词 + 动词 
mn 数字 + 名 词 my 数字 + 动词 
qn 量词 + 名 词 qv 量词 + 动词 
Vy 动词 + 动词 Vy 动词 + 动词 
nn 名 词 + 名 词 av 形容 词 + 动词 
aa 形容 词 + 形 容 词 py 介词 + 动词 
COO 90.96% CMP 93.44% 
avV 形容 词 + 动 词 my 数字 + 动 证 
jj 缩写 + 缩写 qvV 量词 + 动词 
nh nh 人 名 + 人 和 名 dv 副词 + 动词 
(1) ADV 类 规则 if (mw, cw) is ((nt, v) or (p, v)) then Score=S(cw); 


ADY 为 状 中 关系 , 修饰 词 作 状 语 修 饰 核心 词 。 当 
修饰 词 为 副词 时 , 副词 使 被 修饰 词 的 情感 强度 发 生变 
化 或 极 性 反 转 。 如 “融资 买 人 额 太 大 , 决定 明天 不 进 
场 " 中 的 “ 太 大 ”和 “不 进 场 ”, 程度 副词 “ 太 ” 使 情感 词 
“大 ”的 情感 得 到 强化 , 因此 词语 组 合 的 情感 值 可 设 为 
副词 程度 值 和 动词 情感 值 的 乘积 。 而 否定 副词 “不 ”将 
“ 进 场 ” 的 极 性 反 转 ,因此 其 组 合 情 感 值 可 设 为 动词 情 
感 值 的 相反 数 。 当 词性 组 合 为 "形容词 + 动 词 ”" 时 ， 如 
“稳健 接盘 ”、“ 成 功 突破 ”"。 由 于 形容 词 对 动词 具有 一 
定 的 修饰 作用 , 但 重点 仍 在 动词 , 因此 将 组 合 的 情感 
值 设 为 两 者 的 加 权 求 和 ， 且 形容 词 的 权重 低 于 动词 ， 
具体 取 值 方法 是 前 者 为 后 者 的 一 半 。 对 “动词 + 动词 ” 
的 组 合 ， 从 所 获得 的 语 料 来 看 , 绝 大 多 数 情 况 两 者 的 
情感 极 性 相同 ， 且 很 难 分 辨 谁 更 重要 ， 如 “ 进 场 抢 筹 ”， 
因而 以 两 者 的 和 作为 组 合 的 情感 值 。 而 当 修 饰 词 为 时 
间 名 词 、 介 词 、 量 词 等 时 ， 由 于 这 些 修饰 词 一 般 不 具 
有 情感 倾向 ， 因 此 组 合 的 情感 值 就 等 于 核心 词 的 情感 
值 。 因 此 ,本 类 规则 可 表示 如 下 : 

if (mw, ew) is ((d, v) or (d, a)) and mw is dd 


then Score=D(mw)x S(cw); 


if (mw, cw) is ((d, v) or (d, a)) and mw is nd then Score=—S(cw); 


if (mw, cw)is (a,v) then Score=0.5xS(mw)+S(cw); 


if (mw,cw)is(v,v) then Score=S(mw)+S(cw); 

注意 ,本 类 规则 中 “动词 + 动词 ?这 类 修饰 词 与 核 
心 词 词性 相同 的 情况 在 其 他 下 述 的 各 类 依存 关系 中 也 
同样 存在 , 而 且 大 多 都 无 法 分 辨 两 者 情感 谁 更 重要 ， 
因此 后 续 都 按 相同 方式 进行 处 理 。 再 有 ,修饰 词 为 时 
间 名 词 、 介 词 、 量 词 等 情况 时 ， 其 他 下 述 各 类 规则 中 
也 存在 类 似 情形 ， 处 理 方式 也 一 样 , 不 歼 述 。 

(2) ATT 类 规则 

ATT 为 定 中 关系 , 是 句 中 定语 和 中 心 语 的 关系 。 
当 修 饰 词 为 动词 或 形容 词 , 核心 词 为 名 词 时 , 动词 或 
形容 词 作 定语 修饰 名 词 。 如 “这 是 一 个 很 大 的 阴谋 ”中 
的 “大 阴谋 ”, 虽然 “大 ”对 “阴谋 ”具有 修饰 作用 , 但 整 
个 依存 关系 的 情感 倾向 取决 于 名 词 “ 阴 谋 ” 的 极 性 。 
此 ,本 类 规则 可 表示 如 下 : 


if (mw, cw) is ((r, n) or (m, n) or (q, n)) then Score= S(cw); 


if (mw,cw)is (n,n) thenScore=S(mw)+S(cw); 


if (mw, ew) is ((v, n) or (a, n)) then Score=|S(mw)|x P(ew); 
(3) COO 类 规则 
COO 表示 两 个 构成 词语 之 间 的 平等 关系 。 如 “ 庄 
家 故意 压 盘 和 打压 ”中 的 “ 压 盘 ”与 “打压 ”。 因 此 以 修饰 
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词 和 核心 词 的 分 值 和 作为 组 合 情 感 值 。 
Score =S(mw)+S(cw) 

(4) SBV 类 规则 

SBV 为 主 谓 关 系 , 是 句子 中 的 主干 。 当 词性 组 合 
为 “名 词 + 动 词 ",“ 名 词 + 形 容 词 时 ,整个 依存 关系 的 
情感 倾向 很 大 程度 上 取决 于 名 词 的 情感 。 如 “多 头 不 会 
轻易 动摇 ”中 的 “多 头 ” 与 “动摇 ”“ 多 头 ” 的 正 向 情感 占 
有 和 较 大 权重 。 因 此 , 本 类 规则 可 表示 如 下 : 


if (mw, cw) is ((r, v) or (nh, v) or (ns, V)) then Score = S(cw); 


if (mw, cw)is (Vv, v) then Score=S(mw)+S(cw); 

if (mw, cw) is ((n, v) or (n, a)) then Score = S(mw) + 0.5 x S(cw); 

(5) VOB 类 规则 

VOB 为 动 宾 关 系 ， 当 词性 组 合 为 “名 词 + 动词 "和 
“形容 词 + 动词 "时 ， 名词 或 形容 词 为 动词 动作 的 承受 
对 象 , 因而 其 情感 主要 体现 在 动词 上 。 如 “股价 突破 阻 
力 ” 中 的 “突破 ”与 “阻力 ”。 因 此 ,本 类 规则 可 表示 如 下 : 


if (mw, cw) is ((r, v) or (m, v) or (gq, v)) then Score= S(cw); 


if (mw, cw) is (v, v) thenScore=S(mw)+S(cw); 
if (mw, cw) is ((n, v) or (a, v)) then Score=0.5xS(mw)+S(cw); 
(6) CMP 类 规则 
CMP 为 动 补 关系 ， 即 对 动词 所 产生 的 动作 进行 补 
充 说 明 。 经 过 统计 该 关系 在 金融 论坛 语 料 中 出 现 极 少 ， 
所 以 , 以 修饰 词 和 核心 词 的 分 值 和 作 简 单 处 理 。 


Score=S(mw)+S(cw) 


(7) IS-DO 类 规则 

根据 谓语 的 不 同 , 主 谓 宾 关 系 可 以 分 为 两 大 类 : 
“是 ”类 型 和 “做 ”类 型 “是 ”类 型 (谓语 为 “是 "、“ 就 是 ”、 
“为 了 ”等 ) 是 对 主语 是 什么 的 解释 说 明 , 其 重点 在 于 宾 
语 部 分 如 “利空 是 买 人 的 绝 佳 机 会 ”。 而 “做 ?类 型 则 是 
对 主语 怎么 样 或 在 谓语 动词 的 动作 发 生 下 做 了 什么 的 
解释 说 明 ， 如 “主力 正在 拉 升 股价 ”对 于 “是 ”类 型 的 主 
谓 宾 关 系 , 由 于 重点 在 宾语 , 所 以 在 宾语 为 情感 词 的 
情况 下 ,以 宾语 的 情感 分 值 作为 整个 关系 的 情感 值 ， 
否则 返回 主语 的 情感 分 值 。 对 于 “做 ”类 型 的 主 请 宾 关 
系 , 分 别 计算 主语 和 谓语 及 谓语 和 宾语 的 情感 分 值 ， 
以 两 者 之 和 作为 最 终 的 情感 分 值 。 

(8) 子 句 间 规则 

笔者 发 现 ,金融 论坛 语 料 较 少 出 现 转折 等 复杂 的 


Dhttp: //guba.eastmoney.com/. 
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句 式 关系 。 为 简化 计算 , 规定 整个 句子 的 情感 值 为 各 
个 子 句 情感 值 之 和 。 因 而 计算 规则 如 下 : 
Score =SGD)+SG2)+…+SGn) 

其 中 ，s; 为 各 个 子 句 。 
3.5 情感 计算 模型 

利用 中 国 科学 院 计 算 技术 研究 所 NLPIR 汉语 分 
词 系统 5 对 每 条 待 分 析 文 本 进行 分 词 , 以 XML 的 格 
式 和 Post 的 方式 提交 到 LTP 进行 处 理 。 根 据 LTP 返 
回 的 结果 , 抽取 句子 情感 主干 , 依照 构建 好 的 词典 和 
情感 计算 规则 , 对 情感 主干 进行 词语 间 的 情感 传递 及 
计算 , 最 终 得 到 整个 句子 的 情感 类 别 。 本 文 的 情感 计 
算 模型 如 图 2 所 示 : 


本 国 待 分 析 文 本 


| 全 下 主干 抽取 
情感 传递 及 计算 情感 计算 规则 
文本 情感 类 别 


图 2 情感 计算 模型 


程度 和 和 否定 词典 


4 实 验 


4.1 实验 语 料 
实验 语 料 通 过 火车 采集 器 采集 自 东 方 财 富 网 股吧 
论坛 ”选取 生物 医药 板块 的 $ 只 股票 ,以 论坛 中 每 个 
帖子 的 标题 为 采集 对 象 , 经 过 去 噪 后 共 得 到 31 815 条 
数据 ， 如 表 4 所 示 : 
表 4 5 家 企业 语 料 的 数量 


公司 简称 数量 
博雅 生物 7 405 
达 安 基因 8 603 
国 农 科 技 4 962 
海王 生物 5 334 
华 兰 生 物 5511 
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语 料 的 标注 由 金融 专业 人 士 完成 , 分 “强烈 看 
涨 ”"、“ 微 弱 看 涨 *"、“ 中 性 ”"、“ 微 弱 看 跌 ”"、“ 强 烈 看 跌 ” 
等 5 个 情感 级 别 进行 标注 。 考 虑 到 不 同人 十 对 中 间 三 
个 级 别 的 标注 存在 一 定 争议 ,而 对 “强烈 看 涨 " 和 “强烈 
看 跌 ” 两 个 级 别 看 法 比较 一 致 ， 实验 仅 选 取 各 只 股票 
数据 中 标注 为 “强烈 看 涨 " 和 “强烈 看 跌 ” 的 语 料 并 归 为 
“和 看涨 *(p) 和 “看 跌 ”(n) 两 类 , 最 后 共 得 到 5 430 条 数据 ， 
如 表 $ 所 示 : 


表 5 实验 数据 分 布 


类 别 量 
看 涨 2 730 
看 跌 2 700 
总 计 5 430 


4.2 ”实验 结果 及 分 析 

文献 [13] 在 挖掘 股吧 情绪 时 测试 了 KNN 、 朴 素 贝 
叶 斯 、 决 策 树 、 支 持 问 量 机 4 种 常见 的 算法 , 结果 表 
明 KNN 的 准确 率 最 高 。 为 了 验证 本 文 方法 的 有 效 性 ， 
将 其 作为 比较 基准 。 此 外 , N-Gram 以 统计 词语 间 的 依 
赖 关系 建立 条 件 概率 模型 ， 也 是 一 类 常见 的 文本 分 类 
方法 , 且 Cui 等 所 认为 N>3 时 能 取得 较 好 的 效果 , 故 
笔者 也 将 其 作为 比较 基准 。 

实验 时 , 每 次 将 数据 集 的 三 分 之 二 用 于 训练 , 三 
分 之 一 用 于 测试 。 对 每 类 方法 ,都 采取 随机 抽样 的 方 
式 , 进行 10 次 实验 。 记录 每 次 实验 测试 集 上 的 准确 率 
(Accuracy)、 精 确 率 (Precision)、 召 回 率 (Recall) 和 下 值 
(F-measure) 等 评测 指标 值 。 以 本 文 方法 的 10 次 结果 平 
均值 与 KNN 、N-Gram 准确 率 最 高 的 一 次 进行 比较 。 
实验 结果 如 表 6 所 示 : 

表 6 实验 结果 对 比 


对 比 项 目 本 文 方法 KNN N-Gram 
准确 率 (a) 84.46% 76.57% 71.04% 
精确 率 (p) 82.84% 73.34% 71.83% 
精确 率 (n) 86.28% 80.43% 70.30% 
召回 率 (p) 87.14% 83.18% 69.78% 
召回 率 (n) 81.74% 69.89% 72.33% 
F 值 (p) 84.94% 78.12% 70.79% 
F 值 (n) 83.95% 74.79% 71.30% 


从 表 6 可 以 看 出 , 本文 方 法 整体 准确 率 为 84.46%， 
相 较 于 KNN 与 N-Gram 的 文本 分 类 方法 ,本文 方法 使 
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得 整体 准确 率 有 明显 的 提高 。 把 看 涨 与 看 跌 两 类 分 开 
看 ,本文 方法 的 看 涨 类 召回 率 87.14%, 较 KNN 方法 
的 看 涨 召 回 率 83.18% 有 较 大 的 提升 ;而 在 看 跌 类 召回 
率 上 , 提升 更 为 明显 。F 值 综合 考虑 了 精确 率 和 召回 
率 , 本 文 方法 的 看 涨 类 下 值 为 84.94%, 与 KNN(78.12%) 
和 N-Gram(70.79%) 相 比 , 分 别提 升 了 6.82% 和 
14.15%。 看 跌 类 F 值 为 83.95%, 与 KNN(74.79%) 和 
N-Gram(71.30%) 相 比 , 分 别提 升 了 9.16% 和 12.65%。 
这 些 结果 都 充分 反映 了 基于 句法 结构 信息 的 情感 计算 
方法 比 起 纯粹 基于 词 频 信息 的 机 融 学 习 方 法 有 更 好 的 
优势 。 


本 文 基于 依存 句法 , 提出 了 一 种 针对 金融 论坛 语 
料 的 情感 分 析 方法 。 与 机 器 学 习 方法 相 比 较 ,在 准确 
率 、 召 回 率 和 了 值 上 均 有 较 大 提升 ， 充 分 表明 了 句法 
结构 与 语义 信息 对 文本 情感 分 析 的 作用 。 

由 于 中 文 语 言 结 构 复 杂 ， 表 达 丰 富 多 变 , 本 文 提 
出 的 方法 对 句法 结构 和 语义 关系 信息 仍 没有 充分 挖 
据 。 例 如 : 如 同文 章 和 段落 具有 主题 段 和 主题 名 一样 ， 
各 子 句 对 于 整个 句子 的 情感 倾向 性 的 贡献 也 不 一 样 ， 
本 研究 未 区 别 对 待 ; 没有 考虑 主 谓 宾 和 句子 核心 的 词 
语 在 情感 传递 后 的 词性 改变 问题 ; 依赖 于 LTP 的 分 析 
结果 ,虽然 在 现 有 各 系统 中 其 表现 非常 突出 , 但 其 准 
确 性 还 有 提升 空间 ,相信 随 着 其 技术 的 进一步 完善 ， 
可 获得 更 好 的 结果 。 

未 来 研究 将 会 重点 关注 金融 论坛 文本 各 子 句 对 整 
个 句子 的 情感 权重 以 及 设 定 更 深层 次 的 情感 计算 规则 
等 问题 。 同 时 , 情感 分 析 技 术 的 应 用 也 是 笔者 的 兴趣 
所 在 。 
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Sentiment Analysis of Financial Forum Textual Message 


LanQiujun Liu Wenxing LiWeikang Hu Xingye 

(Business School, Hunan University, Changsha 410082, China) 
Abstract: [Objective] This paper aims to identify sentiment propensity accurately with the help of a new method based 
on dependency parsing. [Methods] First, we extracted the sentiment stems of the sentences. Second, we defined 
sentiment-computing rules. Finally, we calculated sentiment propensity of each sentence. [Results] The proposed 
method achieved an overall accuracy of 84.46%. The average precision rate and recall rate for bullish class were 
82.84% and 87.14% respectively, with an F-measure of 84.94%. In the mean time, bearish class got a precision rate of 
86.28%, a recall rate of 81.74% and an F-measure of 83.95%. [Limitations] The proposed method did not consider the 
relevance among clauses. [Conclusions] The dependency parsing can effectively improve the accuracy of sentiment 
analysis of textual message from financial forum. 
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